# 爬虫配置文件

# 页面滚动配置
SCROLL_CONFIG = {
    'wait_time': 2000,  # 每次滚动后等待时间(毫秒)
    'max_no_change': 3,  # 连续多少次没有新数据就停止滚动
    'network_timeout': 5000,  # 网络空闲等待超时时间(毫秒)
}

# 文件路径配置
FILE_PATHS = {
    'html_file': 'c:/Users/Glenn_Gao/Desktop/automation-updater/hhttmm.html',
    'output_excel': 'c:/Users/Glenn_Gao/Desktop/automation-updater/nom_standards.xlsx'
}

# 选择器配置
SELECTORS = {
    'item_container': 'div.item.asp_r_pagepost',
    'title_link': 'h3 a.asp_res_url',
    'description': 'div.asp_res_text'
}

# 正则表达式配置
REGEX_PATTERNS = {
    'standard_extraction': r'>\s*(.+)',  # 提取"> "后面的内容
    'fallback_standard': r'(N[MO][XM]-[A-Z0-9-]+)'  # 备用标准编号匹配
}

# 浏览器配置
BROWSER_CONFIG = {
    'headless': True,  # 是否无头模式
    'timeout': 30000,  # 页面加载超时时间(毫秒)
}